1. Popisná statistika

Obsah:


Definice základních pojmů

Statistika je matematická disciplína zabývající se sběrem, prezentací, analýzou a interpretací dat. Daty rozumíme údaje, které slouží k popisu jevů nebo vlastností pozorovaných objektů. Můžeme je získat měřením nebo pozorováním. (Informací se data stávají až v okamžiku, kdy mohou ovlivnit chování příjemce). Statistiku, jako řadu jiných vědních disciplín, můžeme rozdělit na teoretickou (matematická statistika) a aplikovanou. Matematická statistika se zabývá výzkumem a popisem nových metod, zatímco aplikovaná statistika tyto metody používá v konkrétních situacích v různých oborech lidské činnosti, například v přírodních či společenských vědách, v politice nebo v lékařství. Známé jsou tzv. průzkumy veřejného mínění realizované různými agenturami.

Slovo statistika může mít různý význam. Jednak, jak již bylo uvedeno, označuje vědní disciplínu, ale používá se také k označení určité vlastnosti sledované veličiny (např. aritmetický průměr je jedním z možných vyjádření její střední hodnoty, směrodatná odchylka vyjadřuje její variabilitu a obě veličiny jsou statistiky) nebo k označení souhrnu údajů (např. zdravotnická statistika je souhrn údajů popisujících zdravotní stav obyvatelstva). Samo jméno statistika vzniklo k označení metod popisujících a shrnujících údaje potřebné k řízení státu.

Jedna část statistiky se nazývá popisná statistika nebo deskriptivní statistika. Zabývá se sběrem údajů, jejich zpracováním a vyhodnocováním.

Statistiku lze členit takto:

Základní statistické pojmy

Zde budeme definovat tyto nové pojmy:

Základní soubor je určitá věcně, prostorově a časově vymezená množina všech zkoumaných prvků, u kterých zjišťujeme hodnoty jisté sledované veličiny.
Sledovaná veličina se pak nazývá statistický znak.
Prvky základního souboru se nazývají statistické jednotky. Jsou nositeli vlastností daného souboru.
Poznamenejme, že statistické znaky lze ještě dělit na

Nyní zavedeme následující označení:

Nyní platí tyto vztahy: \[0\le n_i\le N\ \textrm{ a }\ \sum_i n_i=N.\] Pokud pro každé \(i\) utvoříme podíl \(p_i=\frac{n_i}{N}\), potom se ukáže, že platí: \[0\le p_i\le 1\ \textrm{ a }\ \sum_i p_i=1.\] Tímto jsme přiřadili hodnotám statistického znaku čísla \(p_i\), která mají charakter pravděpodobnosti.
Veličinu \(X\) pak můžeme považovat za tzv. náhodnou veličinu, jejíž rozdělení pravděpodobností je definováno vztahem: \[p(x_i)=p_i\]

Říkáme, že základní soubor je reprezentovaný náhodnou veličinou \(X\) s příslušným rozdělením pravděpodobností. Rozdělení pravděpodobností náhodné veličiny \(X\) nazýváme rozdělením pravděpodobností příslušného základního souboru. Na základní soubor se pak díváme jako na náhodnou veličinu s příslušným rozdělením pravděpodobností.

Náhodný výběr

Náhodným výběrem o rozsahu \(n\), utvořeným ze základního souboru, reprezentovaného náhodnou veličinou \(X\), budeme rozumět \(n-\)tici nezávislých náhodných veličin \((X_1,X_2,\ldots,X_n)\), majících stejné rozdělení pravděpodobností jako náhodná veličina \(X\).
Poznámka: rozlišujme dále mezi pojmy náhodný výběr a pojmem realizace náhodného výběru, což je n-tice konkrétních naměřených hodnot statistického znaku.

Formy zápisu náhodného výběru

Uveďme zde dva příklady třídění a zápisu náhodného výběru:
  1. Seskupování údajů do tříd
  2. Seskupení statistického znaku do intervalů

1. Seskupování údajů do tříd:
Proveďme statistický experiment v němž jsme vybrali náhodně 30 maturujících v předmětu matematika. Sledovanou náhodnou veličinou byla známka z tohoto předmětu. Známky jsou zapsány v seznamu: \[ (2,2,3,3,3,1,2,4,1,2,2,5,3,4,4,3,3,3,5,3,2,2,1,1,4,2,4,3,4,4) \] Tyto hodnoty lze seskupit do tříd podle četnosti výskytu a zapsat do tabulky:

\(x_i\) 1 2 3 4 5
\(n_i\) 4 8 9 7 2
Hodnoty náhodné proměnné jsme seřadili vzestupně a \(n_i\) vyjadřuje třídní četnost znaku \(x_i\). Platí samozřejmě rovnost: \(\sum_i n_i=N=30.\) Číslo \(N\) je rozsah zkoumaného souboru.

2. Seskupení hodnot statistického znaku do intervalů, které představují třídy Za tím účelem uvažujme opět soubor 30 studentů a tentokrát sledujme průměr v matematice na pololetním vysvědčení ze 4. ročníku:

\(x_i-x_{i+1}\) \(\langle 1,1.5)\) \(\langle 1.5,2)\) \(\langle 2,2.5)\) \(\langle 2.5,3)\) \(\langle 3,3.5)\) \(\langle 3.5,4)\) \(\langle 4,4.5)\) \(\langle 4.5,5)\)
\(n_i\) 6 6 7 6 3 1 1 0
Na určení počtu intervalů existuje řada metod. Jedno z pravidel je Sturgesovo pravidlo. Počet intervalů se spočítá dosazením do výrazu: \(1+3.3\log(n)\). Podívejme na Příklad 1. Zde je link na soubor s výpočty.

Příklady z praxe

1. Příklad. Na stránkách Českého statistického úřadu lze nalézt spoustu zajímavých statistických údajů o české populaci. Například průměrnou hrubou měsíční mzdu po krajích.
2. Příklad. Česká školní inspekce provádí též různá statistická šetření a podílí se pravidelně i na mezinárodních srovnávacích šetřeních jako jsou PISA, TIMSS a další.

Přehled klíčových pojmů

Popisná (deskriptivní) statistika;matematická statistika; základní soubor; statistický znak; statistická jednotka; rozdělení pravděpodobností

Otázky k zopakování učiva